Telegram Group & Telegram Channel
Почему удаление высоко коррелированных признаков считается хорошей практикой?

Удаление высоко коррелированных признаков считается хорошей практикой по нескольким причинам:

▫️Устранение мультиколлинеарности
Когда два или более признаков имеют высокую корреляцию, это может привести к проблеме мультиколлинеарности, особенно в линейных моделях, таких как линейная регрессия и логистическая регрессия. Мультиколлинеарность означает, что признаки не несут дополнительной информации, что приводит к нестабильности коэффициентов модели. Модель может стать чувствительной к малым изменениям в данных, что вызывает большие изменения в оценке параметров.

▫️Снижение размерности
Каждый добавленный признак увеличивает размерность пространства признаков, что усложняет модель. Это может привести к проблеме, известной как «проклятие размерности» (curse of dimensionality). В пространствах высокой размерности расстояния между точками увеличиваются, и данные становятся более разреженными. Это затрудняет обучение модели, так как для правильного обобщения данных требуется больше наблюдений, чтобы покрыть все возможные комбинации признаков. Удаление коррелированных признаков помогает уменьшить размерность и улучшить работу модели.

▫️Улучшение интерпретируемости модели
Когда признаки высоко коррелированы, интерпретировать влияние каждого признака на итоговый результат модели становится сложно. Например, в линейных моделях трудно определить, какой из коррелированных признаков на самом деле влияет на результат, так как они могут взаимозависимо изменять коэффициенты друг друга.

#машинное_обучение



tg-me.com/ds_interview_lib/616
Create:
Last Update:

Почему удаление высоко коррелированных признаков считается хорошей практикой?

Удаление высоко коррелированных признаков считается хорошей практикой по нескольким причинам:

▫️Устранение мультиколлинеарности
Когда два или более признаков имеют высокую корреляцию, это может привести к проблеме мультиколлинеарности, особенно в линейных моделях, таких как линейная регрессия и логистическая регрессия. Мультиколлинеарность означает, что признаки не несут дополнительной информации, что приводит к нестабильности коэффициентов модели. Модель может стать чувствительной к малым изменениям в данных, что вызывает большие изменения в оценке параметров.

▫️Снижение размерности
Каждый добавленный признак увеличивает размерность пространства признаков, что усложняет модель. Это может привести к проблеме, известной как «проклятие размерности» (curse of dimensionality). В пространствах высокой размерности расстояния между точками увеличиваются, и данные становятся более разреженными. Это затрудняет обучение модели, так как для правильного обобщения данных требуется больше наблюдений, чтобы покрыть все возможные комбинации признаков. Удаление коррелированных признаков помогает уменьшить размерность и улучшить работу модели.

▫️Улучшение интерпретируемости модели
Когда признаки высоко коррелированы, интерпретировать влияние каждого признака на итоговый результат модели становится сложно. Например, в линейных моделях трудно определить, какой из коррелированных признаков на самом деле влияет на результат, так как они могут взаимозависимо изменять коэффициенты друг друга.

#машинное_обучение

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/616

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Telegram announces Anonymous Admins

The cloud-based messaging platform is also adding Anonymous Group Admins feature. As per Telegram, this feature is being introduced for safer protests. As per the Telegram blog post, users can “Toggle Remain Anonymous in Admin rights to enable Batman mode. The anonymized admin will be hidden in the list of group members, and their messages in the chat will be signed with the group name, similar to channel posts.”

The Singapore stock market has alternated between positive and negative finishes through the last five trading days since the end of the two-day winning streak in which it had added more than a dozen points or 0.4 percent. The Straits Times Index now sits just above the 3,060-point plateau and it's likely to see a narrow trading range on Monday.

Библиотека собеса по Data Science | вопросы с собеседований from tr


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA